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白芷 全 基因 组 测序 分 析 及 BGLU 基因 家 族 分 析 
EI, ASR, IKRE, ER, TEM, AE 
(成 都 中 医药 大 学 西南 特色 中 药 资源 国家 重点 实验 室 ， 成 都 611137) 

要 : 和 白芷 为 常用 的 药 食 同 源 的 品种 ， 既 是 临床 常用 中 药 ， 也 是 香料 ， 用 途 十 分 广泛 。 为 
取 白 芷 全 基因 组 序列 信息 ， 该 研究 用 杭 白 芷 叶片 DNA 为 材料 ， 采 用 Nanopore 测序 技术 
构建 杭 和 白芷 全 基因 组 数据 库 ， 并 利用 生物 信息 学 方法 对 获得 的 核 音 酸 序列 进行 组 装 、 功 能 
注释 以 及 进化 分 析 研 究 。 结 果 表 明 : C) 原始 测序 数据 过 滤 后 获得 662 Gb 三 代数 据 ，Read 
N50 约 为 32 932 bp， 经 过 组 装 得 到 杭 和 白芷 基因 组 大 小 为 $5.6 Gb, Contig N50 约 为 806 638 
bp。(2) 组 装 后 的 序列 通过 与 KOG、GO、KEGG 等 功能 数据 库 比 对 ， 得 到 了 功能 注释 的 
基因 共有 66.47%，KOG 功能 注释 结果 表明 杭 白 芷 的 蛋白 功能 主要 集中 在 一 般 功 能 预测 、 
翻译 后 修饰 、 蛋 白质 转换 、 伴 侣 以 及 信号 转 导 机 制 ; GO 功能 分 类 表明 杭 和 白芷 的 基因 集中 
在 生物 学 过 程 及 细胞 组 分 KEGG 通路 注释 表明 参与 代谢 途径 的 基因 占 主要 地 位 。(3) 杭 
白芷 的 
组 
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基因 集中 在 45 个 BGLU 家 族 基 因 。 该 研究 首次 利用 第 三 代 测 序 技术 对 杭 白 芷 全 基因 
进行 解析 ， 为 杭 和 白芷 的 系统 生物 学 研究 芮 定 基 础 ， 有 利于 进一步 深入 开发 和 利用 杭 白 
E， 同 时 也 对 杭 和 白芷 中 BGLU 家 族 基 因 进 行 初步 分 析 ， 为 后 续 进 一 步 研 究 BGLU 在 杭 白 芷 
长 发 育 中 的 功能 提供 了 重要 的 理论 基础 。 
关键 词 : 杭 白 芷 ， 基 因 组 ， 第 三 代 测 序 技术 ，BGLU 基因 家 族 ， 药 用 植物 
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Complete genome sequencing and BGLU gene family 


analysis of Angelica dahurica 
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(Key Laboratory of Distinctive Chinese Medicine Resources in Southwest China, Chengdu 
University of Traditional Chinese Medicine, Chengdu 611137, China) 
Abstract: Angelica dahurica is a common kind of medicine and food homology, which is not only 
a common clinical traditional Chinese medicine, but also a spice, with a wide range of uses. In 
order to obtain the whole genome sequence information of A. dahurica, this study used A. 
dahurica var. formosana leaf DNA as material, and the Nanopore sequencing technology was used 
to establish its nucleotide sequences database, then genome assembly, function annotation and 
evolution analysis were carried out by bioinformatic methods. The results were as follows: (1) 662 
Gb the third-generation data were obtained after the original sequencing data, with the Read N50 
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about 32 932 bp. The assembled A. dahurica var. formosana genome size was 5.6 Gb, contig N50 
being about 806 638 bp. (2) 66.47% of the genes from the assembled sequence got gene 
annotation after being compared with functional databases such as NR, KOG and KEGG. The 
result of KOG gene annotation was that the protein function of A. dahurica var. formosana 
concentrated in the general functional prediction only, posttranslational modification, protein 
turnover, chaperones signal transduction mechanisms. GO functional classification indicated that 
the genes of ÆA. dahurica var. formosana concentrated on cell biological processes and components. 
KEGG analysis found that the 4. dahurica var. formosana genes mostly involved in metabolic 
pathways. (3) 45 genes of BGLU family were identified in A. dahurica var. formosana. In this 
study, the whole genome of A. dahurica var. formosana is resolved by the third-generation 
sequencing technology for the first time, which lay a foundation for the systematic biological 
study of A. dahurica var. formosana , and is conducive to the further development and utilization. 
At the same time, the BGLU family genes were preliminarily analyzed, it also provides an 
important theoretical basis for the further study of the function of BGLU in the growth and 
development of A. dahurica var. formosana . 

Key words: Angelica dahurica var. formosana, genome, the third-generation sequencing 
technology, BGLU gene family, medicinal plant 


白芷 为 伞 形 科 (Apiaceae) 植物 白芷 (Angelica dahurica) ILATE (A. dahurica var. 
formosana) 的 干燥 根 ， 主 产 于 四 川 、 杭 州 等 地 ， 多 为 栽培 品 。 白 芷 是 常见 的 药 食 同 源 药 
材 ， 在 临床 上 可 用 于 感冒 头痛 、 丑 校 骨 痛 、 牙 痛 、 郊 疡 肿 辛 等 各 种 类 型 的 疼痛 症状 (国家 药 
员 会 ，2020)， 在 日 常生 活 中 也 可 以 作为 香料 使 用 。 同 时 ， 由 于 其 气味 芳香 ， 还 被 广泛 
应 用 于 化 妆 品 、 洗 护 用 品 等 方面 (于 静 等 ，2014)。 和 白芷 含有 多 种 活性 成 分 ， 如 香 豆 素 类 、 
挥发 油 类 、 多 糖 类 、 生 物 碱 类 等 (Li et al, 2014; Zhao et al., 2022)， 现 代 研 究 表明 其 主要 有 效 
成 分 是 香 豆 素 类 和 挥发 油 类 ， 具 有 人 解 热 镇 痛 、 抗 炎 、 抗 病原 微生物 、 抗 肿瘤 、 降 压 、 保 肝 
等 多 种 药理 作用 (吉庆 等 ，2020; EE, 2020). 

白芷 的 应 用 前 景 十 分 广泛 ， 但 近年 对 白芷 的 研究 多 数 集中 在 化 学 成 分 、 栽 培 技术 、 药 
理 药 效 的 解析 等 方面 ， 而 少 有 关于 白芷 遗传 信息 的 研究 ， 目 前 只 见 对 白芷 转录 组 进行 测序 
分 析 ( 吴 萍 等 ，2020) 的 研究 ， 对 白芷 COSNTANS-like( 蒋 翼 杰 等 ，2021D)、NAC( 黄 文 娟 等 ， 
2021)、MYB-related( 刀 菲 等 ，2022) 基 因 家 族 的 研究 以 及 白芷 中 香 豆 素 合 成 关键 基因 的 挖掘 
均 是 依据 转录 组 数据 进行 (刘洋 ，2019)， 白 芷 基因 组 数据 的 缺乏 导致 无 法 获取 白芷 完整 的 
遗传 信息 ， 更 多 的 研究 无 法 开展 或 进一步 深入 ， 故 对 其 进行 全 基因 组 测序 对 是 十 分 重要 
的 。 
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香 豆 素 类 成 分 既是 白芷 的 药 效 成 分 又 是 香气 成 分 ， 香 豆 素 类 化 合 物 广泛 存在 于 自然 界 
的 多 种 植物 中 ， 如 伞 形 科 、 芸 香 科 、 桑 科 等 的 植物 (Venugopala et al, 2013)， 近 年 来 对 香 豆 
素 的 生物 合成 途径 研究 较 多 ， 一 些 关 键 酶 及 功能 作用 的 解析 也 较为 清晰 ( 段 珍 等 ，2022)。 
Hepat ed55- 8 NT NP Cf-glucosidase, BGLU)，B- 葡 区 糖苷 酶 家 族 不 仅 在 香 豆 素 的 生物 
合成 中 起 到 重要 调控 作用 ， 而 且 广 泛 参 与 植物 激素 信号 激活 (Sun et al., 2014)、 次 生 代谢 
(Sampedro et al., 2017) 等 多 种 重要 生理 过 程 。 有 研究 表明 5- 葡 萄 糖苷 酶 家 族 在 草木 标的 香 豆 
素 合成 中 起 到 重要 调控 作用 ( 吴 凡 ，2021)， 在 玉米 中 能 通过 催化 碳水 化 合 物 部 分 和 香 豆 素 
核心 结构 间 的 5- 葡 萄 糖苷 键 的 水 解 ， 进 而 产生 香 豆 素 苷 元 形式 ; 黑 曲霉 来 源 的 /- 葡 萄 糖苷 
酶 对 丁 公 节 粗 提 物 中 的 东 葛 着 苷 可 特异 性 水 解 ， 并 使 其 含量 提高 47%( 于 坤 朋 等 ，2023); 
从 拟 南 芥 中 分 离 的 3 种 5- 葡萄 糖苷 酶 能 特异 性 水 解 东 葛 车 苷 。 东 葛 营 音 在 太 -葡萄 糖苷 酶 的 
作用 下 水 解 成 东 葛 营 内 酯 ， 东 芒 若 内 酯 属于 香 豆 素 类 成 分 ， 在 白芷 中 也 有 存在 ， 课 题 组 推 


测 在 白芷 的 香 豆 素 成 分 合成 中 ，BGZLC 基 因 也 起 到 关键 作用 。 

由 于 目前 未 见 关 于 白芷 高 质量 基因 组 的 研究 ， 对 白芷 中 香 豆 素 合 成 途径 的 解析 也 较 
少 ， 为 了 进一步 丰富 白芷 的 遗传 进化 的 研究 资料 ， 本 研究 通过 对 杭 白 芷 进行 第 二 Aus 三代 
基因 组 测序 ， 对 测序 数据 进行 组 装 、 注 释 等 ， 获 得 杭 和 白芷 的 高 质量 基因 组 ， 并 进行 功能 注 
尘 、 基 因 家 族 聚 类 等 分 析 ， 然 后 挖掘 香 豆 素 合成 途径 关键 基因 BCLU， 通 过 在 线 软件 对 基 
因 组 中 提取 的 BCZC7 序 列 进行 基本 的 特征 分 析 ， 拟 探讨 以 下 问题 : (GD) 杭 白芷 基因 组 概况 ; 
(2) 基 因 功 能 主要 集中 在 哪些 生物 学 过 程 及 代谢 通路 ，(3)3GLU 基因 家 族 的 基本 特征 是 什 
么 。 本 研究 将 为 白芷 的 后 续 研 究 提供 数据 基础 及 分 子 基 础 ， 能 为 后 续 深 入 研究 BGLU 基因 
家 族 在 白芷 香 豆 素 合 成 途径 中 的 功能 提供 前 期 基础 。 


1 材料 与 方法 


1.1 材料 及 DNA 提取 
杭 和 白芷 植株 来 自 成 都 中 医药 大 学 药 用 植物 园 ， 经 国家 中 药 种 质 资源 库 专 家 高 继 海 副 教 
授 鉴 定 为 伞 形 科 植 物 杭 白 芷 (Angelica dahurica var. formosana), KME W JEJA E 
害 的 叶片 ， 先 用 蒸馏 水 清洗 表面 ， 然 后 使 用 75% 乙 醇 清洗 3 次 ， 擦 干 后 置 于 -80 "CURAE, 
» 备用 。 
O 参照 沙 丽 萍 (2018) 采 用 CTAB 法 提取 杭 白 芷 叶片 DNA。 提 取 的 DNA 需 通 过 琼脂 糖 凝 
胶 电 泳 和 Qubit Fluorometer 检测 浓度 ， 以 及 Nanodrop 检测 纯度 和 完整 度 。 
1.2 文库 构建 及 测序 
(1) MGISEQ-200 测序 : 提取 的 杭 白芷 基因 组 DNA. 经 检测 合格 以 后 ， 通 过 酶 解 随 机 
打 断 成 片段 ， 经 末端 修复 、 加 A 尾 、 加 测序 接头 、 纯 化 、PCR 扩 增 等 步骤 构建 插入 片段 长 
度 为 150 bp 的 DNA 文库 。 将 构建 好 的 文库 在 MGISEQ-200 平台 进行 双 端 测序 。 
(2) Nanopore 测序 : 利用 磁 珠 对 检测 合格 的 DNA 进行 富 集 和 纯化 ， 对 纯化 后 的 
m DNA 进行 损伤 修复 、 末 端 修复 、 加 A 尾 后 再 纯化 ， 将 产物 进行 测序 相关 的 连接 及 纯化 ， 得 
. 到 最 终 上 机 文库 ， 用 Qubit 对 建 好 的 DNA 文库 进行 精确 的 定量 检测 ， 取 一 定量 的 DNA X 
,一 库 混 合 上 机 相关 试剂 后 加 入 流动 槽 中 ， 在 GridION 测序 仪 上 进行 单 分 子 测 序 ， 得 到 原始 数 
1.3 基因 组 测序 数据 的 质量 控制 
= 二 代 原 始 测序 数据 中 包含 的 接头 信息 ， 低 质量 碱 基 ， 未 测 出 的 碱 基 ( 以 N 表示 ) 等 会 
T 对 后 续 的 信息 分 析 造 成 很 大 的 和 干扰， 这些 干扰 信息 需要 利用 FastQC v0.11.9 软件 和 
Trimmomatic v0.39 软件 进行 过 滤 ， 最 终 得 到 有 效 数据 (clean reads) 用 于 后 续 分 析 。 
对 于 三 代 Nanopore 测序 数据 使 用 NanoPlot v1.20.0 软件 对 测序 质量 进行 检测 ， 再 利用 
NanoFlit v2.8.0 软件 进行 低 质 量 和 短片 段 数据 的 过 滤 
1.4 基因 组 大 小 和 杂 合 度 评估 
利用 MGISEQ-200 测序 得 到 的 reads 数据 ， 采 用 Jellyfish v1.1.10 做 Survey 分 析 来 预 估 
基因 组 大 小 ， 杂 合 率 、 及 重复 序列 占 比 ， 以 判断 基因 组 复杂 情况 。 采 用 基因 K-mer 的 分 析 
方法 来 估计 杭 和 白芷 基因 组 特征 。 
1.5 基因 组 组 装 及 评估 
为 得 到 高 准确 性 的 三 代 组 装 结果 ， 先 采用 Canu v2.1.1(Koren et al., 2017) 软 件 对 Clean 
Data 进行 纠 错 ， 然 后 将 纠 错 后 的 数据 进行 组 装 ， 用 Racon v1.0.0(Senol et al., 2019) 软 件 对 组 
装 结果 进行 纠 错 ， 再 用 Pilon v1.22 软件 使 用 二 代数 据 进行 校正 ， 最 后 利用 BUSCO 
v5.1.2(Simão et al., 2015) 软 件 对 组 装 完成 的 基因 组 进行 完整 性 评估 。 
1.6 序列 预测 
首先 ， 基 于 结构 预测 和 从 头 预测 (42 initio) 的 原理 ， 使 用 LTR Finder v1.05(Xu et al., 
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2007). RepeatScout v1.0.6 ~ PILER-DF v2.4 软件 构建 重复 序列 数据 库 ， 利 用 
PASTEClassifier v2.0 对 构建 好 的 重复 序列 库 进 行 分 类 ; 然后 ， 基 于 重复 序列 数据 库 
Repbase(https:/www.girinst,org/repbase/) 合 并 作为 最 终 的 杭 白 芷 基因 组 的 重复 序列 数据 库 ; 
最 后 ， 基 于 构建 好 的 数据 库 采 用 RepeatMasker v4.1.2 软件 对 杭 和 白芷 进行 重复 序列 的 预测 。 
基于 从 头 预 测 和 同 源 物 种 预测 (Homolog) 两 种 原理 对 杭 白 芷 基因 组 进行 基因 预测 ， 并 对 
预测 结果 进行 评估 。 首 先 ， 利 用 Genscan v1.0、Augustus v3.3.1. GlimmerHMM v3.0.4. 
GeneID v1.4、SNAP v8.0.0 进行 从 头 预 测 ， 然 后 ， 使 用 GeMoMa v1.3.1 进行 基于 同 源 物 
的 预测 ， 最 后 ， 利 用 EvidenceModeler v1.1.0 整合 、 校 正 上 述 方法 得 到 的 预测 结果 。 针 对 
编码 RNA 预测 ， 包 括 了 microRNA, rRNA 及 tRNA 等 已 知 功能 的 RNA， 分 别 基 本 
Rfam(Finn et al., 2006) 数据 库 和 miRBase 数据 库 并 利用 Infenal v1.1.3 进行 rRNA. 和 
microRNA 预测 ， 利 用 tRNAscan-SE v2.0.7 识别 tRNA- 
1.7 功能 基因 注释 

对 预测 得 到 的 基因 序列 与 NR(Non-Redundant Protein Database)、KOG(EuKaryotic 
Orthologous Groups) 、KEGG(Kyoto Encyclopedia of Genes and Genomes)、TrEMBL 等 功能 
数据 库 做 BLAST v2.2.31 比 对 ， 设 置 比 对 和 划 选 浆 值 (e-value<le-$)， 得 到 基因 功能 注释 。 基 
T NR 数据 库 比 对 结果 ， 应 用 软件 Blast2GO v5.2.5 进行 GO 数据 库 的 功能 注释 。 
1.8 基因 家 族 聚 类 分 析 及 系统 进化 分 析 

利用 杭 白 芷 和 其 同 科 物 种 的 对 比 来 寻找 基因 家 族 ， 首 先 从 NCBI 数 据 库 中 下 载 杭 白 芷 
E RE dE. 3] F 3€ (Apium graveolens(Song et al, 2021) 、 胡 99 þ (Daucus carota subsp. 
sativusylorizzo et al., 2016) B] 4& Á FF 7], JM CGDB(httpZ/cgdb.bio2db.com) F £X 75 X 
(Coriandrum sativum)(Song et al., 2020) Œ F1 7i] ; H OrthoMCL v2.0(Li et al., 2003) 软 件 对 
all-vs-all blastp 获得 的 所 有 物种 和 蛋白 序列 间 的 相似 性 关系 进行 聚 类 分 析 。 通 过 从 OrthoMCL 
聚 类 结果 中 提取 的 单 拷贝 蛋白 序列 ， 再 Muscle v3.8.31(Edgar, 2004) 软 件 中 进行 对 比 ， 再 通 
XE RAxML v8.2.12(Guindon & Gascuel，2003) 软 件 采 用 最 大 似 然 法 (ML TREE) 构 建 进 化 树 。 
1.9 杭 白 芷 BGLU 基因 家 族 成 员 挖 气 
利用 SMART 数据 库 ， 获 得 拟 南 芥 BGLU 基因 家 族 的 典型 结构 域 序列 tBLASTN 
(P=0.001)， 并 搜索 杭 白芷 基因 组 数据 库 ， 通 过 Pfam 数据 库 得 到 杭 白 芷 中 所 有 BGLU 基因 
家 族 成 员 。 
1.10 BGLU 家 族 基 因 理 化 性 质 、 亚 细胞 定位 、 蛋 白 二 级 结构 及 保守 域 分 析 

利用 ProtParam tool(https://web.expasy.org/protparam/)(Wilkins et al., 1999) 在 线 软件 对 
BGLU X Jk 和 蛋白 其 进行 S 化 性 质 分 析 ; 用 Plat- 
mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/) A WoLF 
PSORT(https://wolfpsort.hgc.jp/) 在 线 软件 综合 分 析 其 亚 细 胞 定位 ; 使 用 SOMPA(https:;//npsa- 
prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html) 在 线 软件 分 析 其 二 级 结构 ， 通 过 
MEME(https://meme-suite.org/meme/tools/meme) 在 线 软 件 分 析 保 守 结 构 域 。 
1.11 BGLU 家 族 系 统 进化 分 析 

利用 MEGA 软件 中 的 Clustal W v2.0(Larkin et al., 2007) 程 序 对 杭 和 白芷 和 拟 南 芥 的 
BGLU 家 族 蛋 白 序 列 进行 对 比 ， 将 对 比 结果 采用 邻接 法 构建 系统 发 育 树 。 
2 结果 与 分 析 
2.1 基因 组 测序 

通过 测序 平台 对 杭 和 白芷 叶片 进行 全 基因 组 测序 ， 对 原始 数据 的 reads 质量 值 进行 初步 


过 滤 ， 去 掉 低 质量 和 短片 段 的 reads， 统 计 得 到 150 Gb 二 代 原 始 数据 ， 得 到 662 Gb 三 代 原 
始 数据 。 三 代数 据 中 ，Read N50 为 32 932 bp， 最 长 reads 的 长 度 为 422 833 bp, FHKE 
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为 27 750 bp， 测 序 质量 符合 后 续 组 装 要求 。Survey 分 析 得 出 杭 和 白芷 基因 组 的 大 小 约 为 5.2 


Gb. 
2.2 基因 组 组 装 及 评估 

借助 Canu 软件 对 杭 和 白芷 进行 汉 
638 bp， 最 长 的 Contig 为 21 677 961 


1 错 组 装 ， 基 因 组 大 小 约 为 5.6 Gb, Contig N50 为 806 
bp, GC 含量 为 35.73%。 组 装 后 的 基因 组 采用 BUSCO 


v5.1.2 软件 评估 ， 在 组 装 的 基因 中 共 找 到 1580 个 完整 的 BUSCO 基因 ， 其 中 完整 单 拷贝 的 


1 272 个 ，Fragmented BUSCO 18 个 


2.3 基因 预测 结果 


基因 ， 有 16 个 基因 在 Embryophyta odb10 数据 库 中 没 


找到 ，BUSCO 评估 基因 组 完整 度 为 97.9%， 表 明 该 组 装 结果 较为 完整 。 


利用 RepeatMasker v4.1.2 软件 3 


因 组 ， 占 比 91.36% 。 其 中 长 散在 重复 序列 (LINE) 数 目 为 21 726 条 ， 占 比 0.41%; 短 散 在 


行 重复 序列 预测 得 到 包含 5.4 Gb 重复 序列 的 杭 白 芷 基 


重复 序列 (SINE) 数 目 为 0 条 ; 长 末端 重复 序列 (LTR) 数 目 为 3 550 524 条 ， 占 比 69.07 %， 
copyia 数目 为 1083 004 条 ， 占 比 30.01%，gypsy 数目 为 989 985 条 ， 占 比 24.56%, Roling- 
circles 数目 为 2 893 条 ， 占 比 0.03%; 简单 重复 序列 (SSR) 数 目 为 7710 条 ， 占 比 0.03%。 

在 获得 的 67 004 个 基因 中 ， 有 34 119 (93.1%) 个 基因 得 到 了 其 他 物种 同 源 性 鉴定 或 


RNA-seq 数据 的 支持 。 共 鉴定 出 2 
(rRNA). 781 个 转移 RNA (tRNA), 
(snRNA). 

2.4 基因 功能 注释 与 分 析 


的 总 基因 数 的 44.46%。 从 图 中 可 以 
生物 合成 ， 转 运 和 代谢 ， 占 比 为 10 


749 个 非 编码 RNA ncRNA)， 包 括 20 个 核糖 体 RNA 
97 个 小 分 子 RNA (microRNA) 和 15 505 个 小 核 RNA 


通过 KOG 功能 注释 (图 D) 可 得 出 ， 杭 白芷 基因 组 共 29 788 个 基因 获得 注释 ， 占 预测 到 


看 出 ， 杭 和 白芷 的 蛋白 功能 主要 集中 在 次 级 代谢 产物 的 
.8%， 其 次 为 信号 转 导 机 制 ， 占 比 为 10.1%， 转 录 ， 占 


比 为 6.7%， 碳 水 化 合 物 转运 和 代谢 ， 占 比 为 3.7%; 一 般 功 能 预测 ， 占 比 为 22.8%。 这 些 基 
因 的 差异 性 表达 可 以 为 今后 杭 白芷 的 深入 研究 提供 数据 支持 。 
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功能 分 类 Function class 


A. RNA 加 工 和 修饰 ，B. 染色 质 结构 和 动力 学 ;C. 能 量 生产 和 转换 ，D. 细胞 周期 调控 ， 细 胞 分 裂 ， 染 色 
体 分 配 ; E. 氨基 酸 转 运 和 代谢 ;FF. 核 彰 酸 转运 和 代谢 ，G. 碳水 化 合 物 转运 和 代谢 ，H. 辅酶 转运 和 代谢 ; 
L 脂 质 转 运 和 代谢 ; J 翻译， 核糖 体 结构 和 生物 合成 ，K. 转录 ; L. 复制 ， 重 组 和 修复 ，M. 细胞 壁 /细胞 膜 
/ 胞 外 被 膜 生 物 合 成 ，N. 细胞 运动 ，O. 翻译 后 修饰 ， 蛋 白质 转换 ， 伴 侣 ;了 P. 无 机 离子 转运 和 代谢 ，Q. 次 
级 代谢 产物 的 生物 合成 ， 转 运 和 代谢 ，R. 一 般 功 能 预测 ，S. 功能 未 知 ; T. 信号 转 导 机 制 ，U. 胞 内 运输 ， 
分 泌 和 具 泡 运输 ; V. 防御 机 制 ，W. 胞 外 结构 ;YY. 细胞 核 结构 ; Z. 细胞 骨架 。 


A. RNA processing and modification; B. Chromatin structure and dynamics; C. Energy production and conversion; 


D. Cell cycle control, cell division, chromosome partitioning; E. Amino acid transport and metabolism; F. 
Nucleotide transport and metabolism; G. Carbohydrate transport and metabolism; H. Coenzyme transport and 
metabolism; I. Lipid transport and metabolism; J. Translation, ribosomal structure and biogenesis; K. 
Transcription; L. Replication, recombination and repair; M. Cell wall/membrane/envelope biogenesis; N. Cell 
motility; O. Posttranslational modification, protein turnover, chaperones; P. Inorganic ion transport and 
metabolism; Q. Secondary metabolites biosynthesis, transport and catabolism; R. General function prediction; S. 
Function unknown; T. Signal transduction mechanisms; U. Intracellular trafficking, secretion, and vesicular 
transport; V. Defense mechanisms; W. Extracellular structures; Y. Nuclear structure; Z. Cytoskeleton. 
图 1 KOG 功能 分 类 注释 图 
Fig.l KOG function annotation classification chart 


杭 白 芷 基因 组 GO 注释 (图 2) 表明， 共有 44 540 个 基因 具有 GO 注释 功能 ， 占 预测 到 的 
总 基因 数 的 66.47%。 功 能 主要 分 布 在 生殖 、 细 胞 过 程 、 胁 迫 应 答 、 细 胞 、 细 胞 部 位 等 的 基 
因 占 优势 ， 其 中 在 生殖 的 基因 占 比 最 多 。 
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1. 细胞 杀伤 ，2. 多 生物 过 程 ; 3. 多 细胞 生物 过 程 ，4. 信号 转 导 ; 5$. 免疫 系统 过 程 ，6. 定位 ; 7. 发 育 过 程 ; 

8. 细胞 组 分 或 生物 合成 ; 9. 生物 调控 ; 10. 单一 生物 过 程 ，11. 代谢 过 程 ，12. 胁迫 应 答 ，13. 细胞 过 程 ; 14. 
生殖 ;15. 细胞 膜 部 位 ，16. 膜 封 闭 腔 ; 17. 细胞 膜 ，18. 细胞 器 部 位 ，19. 高 分 子 复 合 物 ;，20. 细胞 器 ，21. 
细胞 ，22. 细胞 部 位 ，23. 分 子 传感器 活动 ， 24. 分 子 功 能 调节 器 ， 25. 转录 因子 活性 ， 和 蛋白 结合 ; 26. 转运 
活性 ，27. 信号 转 导 活性 ，28. 核酸 结合 转录 因子 活性 ，29. 催化 活性 ，30. 结合 。 

图 中 红色 框 代表 生物 学 过 程 ， 绿 色 框 代表 细胞 组 分 ， 蓝 色 框 代表 分 子 功能 。 


1. Cell killing; 2. Multi-organism process; 3. Multicellular organismal process; 4. Signaling; $. Immune system 


process; 6. Localization; 7. Developmental process; 8. Cellular component organization or biogenesis; 9. 
Biological regulation; 10. Single-organism process; 11. Metabolic process; 12. Response to stimulus; 13. Cellular 
process; 14. Reproduction; 15. Membrane part; 16. Membrane-enclosed lumen; 17. Membrane; 18. Organelle part; 
19. Macromolecular complex; 20. Organelle; 21. Cell; 22. Cell part; 23. Molecular transducer activity; 24. 
Molecular function regulator; 25. Transcription factor activity, protein binding; 26. Transporter activity; 27. Signal 
transducer activity; 28. Nucleic acid binding transcription factor activity; 29. Catalytic activity; 30. Binding. 

The red represents the biological process, the green represents the cellular components, and the blue represents the 


molecular function in this figure. 


图 2 GO 注释 分 类 图 


Fig.2 GO annotation classification chart 


KEGG 通路 注释 (图 3) 对 杭 和 白芷 的 15 263 个 基因 进行 了 通路 注释 ， 占 预测 到 的 总 基因 
数 的 22.78%。 其 注释 结果 表明 参与 “代谢 ”的 基因 占 主要 ， 其 中 微生物 在 不 同 环境 中 的 代 
谢 、 碳 代谢 、 氨 基 酸 生物 合成 为 主要 代谢 通路 。 


遗传 信息 处 理 。 环境 信息 处 理 


Genetic Environmental 细胞 过 程 ” 视 体 系统 
代谢 information information Cellular B il 
Metabolism processing processing processes 
1000 
800 
g 
5b 
a 
2 600 
E 
E 
2 
Z 
Tl 
Ed 
i 400 
ES 
200 


123456 7 8 9 10 111213 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 


功能 分 类 Function class 


1. 微生物 在 不 同 环境 中 的 代谢 ，2. 碳 代谢 ，3. 氨基 酸 的 生物 合成 ;4. 茶 丙 素 的 生物 合成 ;5. RH; 6. 
淀粉 和 蔗糖 代谢 ，7. 糖 酵 解 / 糖 异 生 ，8. 氧化 磷酸 化 ，9. 喀 喧 代谢，10. 戊 糖 、 葡 萄 糖 醛 酸 转换 ，11. 氨基 
糖 和 核 童 酸 糖 代 谢 ，12. 甘油 磷脂 代谢 ，13. 色 氨 酸 代谢 ，14. 内 质 网 中 的 蛋白 质 加 工 ，1S. 剪接 体 ，16. 核 
糖 体 ，17. 核 质 运输 ，18. 泛 素 介 导 的 蛋白 水 解 ， 19. mRNA 监测 通路 ，20. RNA 降解 ， 21. MAPK 信号 通 
路 ，22. 植物 激素 信号 转 导 ; 23. NF-kappa B 信号 通路 ，24. PI3K-Akt 信号 通路 ，25. 胞 吞 ，26. 细胞 周期 ; 


nil 
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27. 卵 母 细胞 减 数 分 裂 ，28. 生成 信号 通路 ，29. NOD 样 受 体 信 和 号 通路 ; 30. 植物 -病原 互 作 ; 31. Toll 样 受 体 
信号 通路 ，32. Toll 和 Imd 信号 通路 ，33. 生 热 作用 ; 34. 胰岛 素 信号 通路 。 


1. Microbial metabolism in diverse environments; 2. Carbon metabolism; 3. Biosynthesis of amino acids; 4. 


Phenylpropanoid biosynthesis; $. Purine metabolism; 6. Starch and sucrose metabolism; 7. Glycolysis / 
Gluconeogenesis; 8. Oxidative phosphorylation; 9. Pyrimidine metabolism; 10. Pentose and glucuronate 
interconversions; 11. Amino sugar and nucleotide sugar metabolism; 12. Glycerophospholipid metabolism; 13. 
Tryptophan metabolism; 14. Protein processing in endoplasmic reticulum; 15. Spliceosome; 16. Ribosome; 17. 
Nucleocytoplasmic transport; 18. Ubiquitin mediated proteolysis; 19. mRNA surveillance pathway; 20. RNA 
degradation; 21. MAPK signaling pathway; 22. Plant hormone signal transduction; 23. NF-kappa B signaling 
pathway; 24. PI3K-Akt signaling pathway; 25. Endocytosis; 26. Cell cycle; 27. Oocyte meiosis; 28. Neurotrophin 
signaling pathway; 29. NOD-like receptor signaling pathway; 30. Plant-pathogen interaction; 31. Toll-like receptor 
signaling pathway; 32. Toll and Imd signaling pathway; 33. Thermogenesis; 34. Insulin signaling pathway. 
图 3 KEGG 功能 注释 图 
Fig.3 KEGG function annotation diagram 


2.5 基因 家 族 聚 类 分 析 及 系统 进化 分 析 

将 杭 白 芷 与 同 科 植物 元 昔 、 开 荣 、 胡 葛 小 的 蛋白 序列 进行 对 比 ， 在 杭 和 白芷 基因 组 的 67 
004 个 蛋白 序列 中 共 鉴 定 出 23 151 个 基因 家 族 ， 其 中 4 004 个 基因 家 族 包含 18 151 个 基因 
特异 存在 于 杭 和 白芷 中 ，4 种 植物 所 共有 的 基因 家 族 有 1 030 个 〈 图 4)。 
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44 个 基因 家 族 Venn 图 
Fig.4 Venn diagram of gene families of 4 species 
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为 进一步 研究 杭 白 芷 的 种 属 关系 ， 以 96 条 单 拷贝 蛋白 序列 进行 比较 分 析 ， 选 择 拟 南 芥 
(Arabidopsis thaliana), K?K(Zea mays)、 无 油 樟 (4mpborella ticpnopoda) 以 及 同 为 伞 形 科 的 区 


SE. Jp. E RB. (Angelica sizensis) 共 7 个 已 知 基 因 组 信息 的 物种 ， 与 杭 和 白芷 构建 


遗传 进化 树 《〈 图 5)。 结 果 表 明 杭 白芷 与 苑 划 聚 为 一 文 ， 两 物种 间 杀 缘 关 系 较 近 。 


0.162 242 


0.370 019 


016242 0.209 495 


| 0053877 | 00338334 


0.167 473 


0016859 5 


0.037 520 7 


图 5 物种 间 进 化 关系 


Fig.5 Evolutionary relationships between species 


2.6 WAÉ BGLU 家 族 基 因 理 化 性 质 、 亚 细胞 定位 分 析 


0261873 


9232922. ATE Angelica 


在 杭 和 白芷 全 基因 组 中 共 鉴 定 到 45 个 BGLU 家 族 基 因 ， 分 别 命名 为 
AdBGLUO1-AdBGLUAS , Ñ) Hj] Protparam Tool 进行 理化 性 质 分 析 ，Plant-mPLoc 及 WoLF 
PSORT 进行 亚 细 胞 定位 《〈 表 1)。 结 果 表 明 ， 杭 白芷 的 45 个 BGLU 基因 编码 的 氨基 酸 数 目 
在 51-930 之 间 ， 最 长 包含 930 个 氨基 酸 残 基 (AdBGLU32), REUE 51 个 氨基 酸 残 基 


CAdBGLU30); 不 稳定 指数 在 11.18-61.86 之 间 ， 其 中 38 个 的 不 稳定 系数 小 于 40, HEMI 
为 稳定 蛋白 ， 其 余 7 个 为 不 稳定 蛋白 ; 脂肪 系数 为 56.76~113.25， 说 明和 蛋白 的 热 稳定 性 车 
好 ; 亲 水 系数 在 -0.643~0.35 之 间 ， 其 中 7 个 为 正 值 ，38 个 为 负 值 ， 说 明 主 要 为 杀 水 性 如 
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ÁH; 等 电 点 在 4.24~10.35 之 间 ， 说 明和 氨基 酸 大 多 为 弱酸 或 弱 碱 性 ， 亚 细胞 定 
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生物 体内 参与 不 同 的 生理 过 程 。 


X 1 杭 白 下 BGLU 家 族 和 蛋白 理化 性 质 、 亚 细胞 定位 


AdBGLU 家 族 成 员 分 别 定位 于 细胞 核 、 细 胞 质 、 叶 绿 体 、 液 泡 中 。A4BGLU 基因 家 族 的 不 
同 成 员 间 理化 性 质 差异 较 大 ， 且 亚 细 胞 定位 较 多 ， 推 测 该 基因 家 族 成 员 功 能 较为 多 样 ， 在 


4 


Tablel Physicochemical properties and subcellular localization of AABGLU 
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Number Gene ID 数目 质量 Theoretical — 数 数 BUKTE ”位 
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7evm.model.cont 
ig 41190 npl2.1 


7evm.model.cont 
ig 51569 npl2.1 


7evm.model.scaff 
old 848 np12.18 


7evm.model.cont 
ig 13620 npl2.1 


7evm.model.cont 
ig 875 np12.20 


7evm.model.cont 
ig 5591 np12.41 


7evm.model.cont 
ig 5591 np12.42 


7evm.model.cont 
ig 7151 npl2.13 


7evm.model.cont 
ig 4524 npl2.5 


7evm.model.cont 
ig 6554 np12.21 


7evm.model.cont 
ig 8631 npl2.4 


7evm.model.cont 
ig 8631 npl2.5 


7evm.model.cont 
ig 26865 npl2.1 


7evm.model.cont 
ig 8414 npl2.6 


7evm.model.cont 
ig 9063 np12.8 
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44.65 
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23:91 
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32.37 


11.18 


34.54 
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80.66 


69.98 
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99.26 


85.69 


80.11 


81.41 


89.72 


111.27 


94.32 


78.9 
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73.89 


81.94 


99.23 


72.98 


82.82 


68.64 


80.28 


91.28 


-0.291 


0.054 


-0.276 


-0.381 


-0.293 


-0.506 


-0.310 


-0.019 


-0.074 


-0.419 


-0.39 


-0.019 


0.35 


-0.22 


-0.156 


-0.085 


-0.346 


-0.324 


-0.448 


-0.364 


-0.237 


-0.495 


-0.342 
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叶绿体 
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液 泡 
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叶绿体 
Chloroplast 


细胞 核 
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液 泡 
vacuole 


细胞 质 
Cytoplasm 


细胞 质 
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液 泡 


vacuole 


细胞 质 


Chloroplast 


细胞 质 
Cytoplasm 


细胞 质 
Cytoplasm 


细胞 质 
Cytoplasm 


细胞 质 
Cytoplasm 


细胞 核 


Nucleus 


细胞 质 
Cytoplasm 


细胞 质 
Cytoplasm 
液 泡 
vacuole 
叶绿体 
Chloroplast 
液 泡 
Vacuole 


细胞 核 


Nucleus 


AdBGLU27 2evm.model.cont 638 73 116.7 7.08 10241 3227 83.71 -0.289 叶绿体 


ig_16310_np12.1 Chloroplast 

7 
AdBGLU28 >eym.model.cont 511 58 131.95 8.07 8 096 29.65 80.94 -0.264 液 泡 

ig 5761 np12.10 vacuole 
AdBGLU29 2evm.modelcont 74 8 391.65 7.00 1 140 52.63 56.76 -0.043 细胞 质 

ig 4290 npl2.7 Cytoplasm 
AdBGLU30 »evm.modelcont 51 5 765.41 4.24 800 18.36 93.53 -0.271 叶绿体 

ig 9965 np12.1 Chloroplast 
AdBGLUS31 »evm.model.cont 396 44 314.95 5.76 6 198 30.14 78.81 -0.391 叶绿体 

ig 5955 np12.1 Chloroplast 
AdBGLU32 »evm.model.cont 930 106 242.47 6.17 14 772 | 3627 74.69 -0.486 细胞 质 

ig 62681 np12.3 Cytoplasm 
AdBGLU33 2evm.modelcont 121 13 148.77 4.78 1] 827 38.14 80.5 0.043 细胞 质 

ig 3403 np12.17 Cytoplasm 
AdBGLU34 »evm.model.cont 507 58 332.13 6.81 8 127 37.22 81.79 -0.371 叶绿体 

ig_15768_np12.1 Chloroplast 

1 
AdBGLU35 >evm.model.cont 77 8 591.58 4.64 1 178 11.55 83.64 -0.196 细胞 质 

ig 9908 npl2.3 Cytoplasm 
AdBGLU36 >evm.model.cont 295 33 829.6 6.75 4 802 26.76 113.25 0.259 细胞 质 

ig 20919 np12.2 Cytoplasm 
AdBGLU37 >evm.model.cont 321 36 622.81 6.75 5194 25.13 110.44 0.214 叶绿体 

ig 20919 np12.4 Chloroplast 
AdBGLUS38 »evm.modelcont 510 59 022.16 8.89 8 224 2241 73.59 -0.456 细胞 质 

ig 3686 np12.4 Cytoplasm 
AdBGLU39 »evm.model.cont 303 33 883.74 921 4 740 37.2 79.4] -0.257 细胞 质 

ig 4890 np12.4 Cytoplasm 
AdBGLUAO 2evm.modelcont 228 25 724.04 6.42 3 638 29.16 106.75 0.226 叶绿体 

ig 10929 np12.6 Chloroplast 
AdBGLU41 >evm.model.cont 85 9 541.12 9.74 1 368 43.04 111.18 -0.048 细胞 质 

ig 40130_np12.2 Cytoplasm 
AdBGLUA2 »evm.modelcont 177 20 452.06 5.85 2831 51.96 78.14 -0.401 叶绿体 

ig 9053 np12.1 Chloroplast 
AdBGLUA3 »evm.modelcont 78 8 918.13 5 1 242 26.56 93.85 -0.228 叶绿体 

ig 4791 np12.1 Chloroplast 
AdBGLUAA 2evm.modelcont 511 58 990.4 9.18 8 224 22:79 71.02 -0.442 叶绿体 

ig 5084 np12.19 Chloroplast 
AdBGLUAS »evm.model.scaff | 269 31 269.15 9.95 4 431 61.86 78.25 -0.643 细胞 核 

old 6091 np12.6 Nucleus 


2.7 杭 白芷 BGLU 基因 家 族 和 蛋白 二 级 结构 及 保守 域 分 析 
在 线 分 析 网 站 对 杭 白 芷 BGLU 家 族 蛋白 的 二 级 结构 分 析 表 明 C 2)，BGLU 家 族 中 a- 
螺旋 和 无 规则 卷曲 所 占 比 例 最 大 ， 其 中 a- 螺 旋 所 占 比例 最 大 的 有 27 个 ， 无 规则 卷曲 所 占 比 
例 最 大 的 有 18 个 。 无 规则 卷曲 为 蛋白 中 的 不 稳定 编码 区 ， 因 此 可 推测 无 规则 卷曲 越 多 ， 该 
家 族 成 员 的 功能 越 多 样 ( 姚 菲 等 ，2022)。 
X 2 杭 白 芷 BGLU 家 族 和 蛋白 二 级 结构 分 析 
Table 2 Analysis of secondary structure of AdBGLU family proteins 


编号 基因 ID o- 螺 旋 ”有 -转角 “延伸 链 无 规则 
Number Gene ID Alpha Beta Extended — 3$ 


jd 


helix turn strand Random 


coil 

AdBGLUOI 2-evm.model.contig 30308 np12.2 . 30.23 5.81 20.93 43.02 
AdBGLUO2 2-evm.model.contig 30308 npl2.3 28.07 3.51 33.33 35.09 
AdBGLUO3 2evm.model.contig 28255 npl2.3 | 41.34 5.62 12.64 40.41 
AdBGLUOA 2evm.model.contig 52431 npl2.2 . 42.47 4.63 19.31 33.59 
AdBGLUOS 2evm.model.contig 52794 npl2.2 39.06 6.05 16.99 37.89 
AdBGLUOG »evm.model.contig 4149 npl2.12 36.99 6.5 16.87 39.63 
AdBGLUOT 2evm.model.contig 3487 npl2.4 40.09 4.84 12.95 42.12 
AdBGLUOS 2evm.model.contig 2826 npl2.18 . 35.70 7.72 18.16 38.41 
AdBGLUOO »2evm.model.contig 6813 npl12.9 39.36 6.97 16.20 37.48 
AdBGLUT0 2evm.model.contig 15195 np12.3 53.7 9.26 14.81 22.22 
AdBGLUII 2evm.model.contig 5102 npl2.18 . 41.38 6.90 24.14 27.59 
AdBGLUI2 »evm.model.contig 41190 np12.1 37.26 7.58 17.26 37.89 
AdBGLUI3 »2evm.model.contig 51569 np12.1 41.77 6.83 13.65 37.75 
AdBGLUIA 2evm.model.scaffold 848 np12.18 39.92 5.14 18.58 36.36 
AdBGLUITS »evm.model.contig 13620 np12.1 46.56 6.35 13.76 33.33 
AdBGLUIT6 »evm.model.contig 875 np12.20 39.35 6.45 16.13 38.06 
AdBGLUMT »2evm.model.contig 5591 npl2.41 45.21 4.11 6.85 43.84 
AdBGLUITS 2-evm.model.contig 5591 npl2.42 . 42.5 11.25 18.75 24 

AdBGLUIT9 »-evm.model.contig 7151 npl2.13 38.85 8.92 17.2 35.03 
AdBGLU20 2evm.model.contig 4524 npl2.5 54.84 3.23 12.9 29.03 
AdBGLU21 »evm.model.contig 6554 npl2.21 51.92 15.38 11.54 21.15 
AdBGLU22 »2evm.model.contig 8631 npl2.4 36.15 6.55 18.18 39.11 
AdBGLU23 2evm.model.contig 8631 npl2.5 38.42 7.53 15.06 39.00 
AdBGLU24 2evm.model.contig 26865 npl12.] | 22.73 10.61 15.91 50.76 
AdBGLU25 »evm.model.contig 8414 npl2.6 35.51 7.48 22.43 34.58 
AdBGLU26 2evm.model.contig 9063 np12.8 28.83 8.9 25.27 37.01 
AdBGLU271 2evm.model.contig 16310 npl2.17 41.07 4.55 13.64 40.75 
AdBGLU28 2evm.model.contig 5761 npl2.10 40.12 5.87 17.22 36.79 
AdBGLU29 »2evm.model.contig 4290 npl2.7 17.57 12.16 25.68 44.59 
AdBGLUS30 2evm.model.contig 9965 npl2.1 45.10 9.80 15.69 29.41 
AdBGLU31 2evm.model.contig 5955 npl2.1 34.09 7.32 15.91 42.68 
AdBGLU32 »2evm.model.contig 62681 npl12.3 3624 8.28 18.71 36.77 
AdBGLU33 2evm.model.contig 3403 npl2.17 17.36 9.92 34.71 38.02 
AdBGLU34 »-evm.model.contig 15768 npl2.11 37.67 8.09 17.16 37.08 
AdBGLUS35 2evm.model.contig 9908 np12.3 42.86 5.19 24.68 27.27 
AdBGLU36 >evm.model.contig 20919 np12.2 43.39 5.76 18.98 31.86 
AdBGLU37 >evm.model.contig 20919 np12.4 41.43 5.61 20.25 32.71 
AdBGLUS38 »2evm.model.contig 3686 npl2.4 37.65 6.67 17.06 38.63 
AdBGLU39 2evm.model.contig 4890 npl2.4 41.91 7.59 11.55 38.94 
AdBGLUAO 2evm.model.contig 10929 npl2.6 ^ 49.56 4.82 21.05 24.56 
AdBGLU41 >evm.model.contig 40130 npl12.2 21.18 5.88 23.53 49.41 
AdBGLUA2 »2evm.model.contig 9053 npl2.1 38.42 3.95 11.3 46.33 
AdBGLUA3 »2evm.model.contig 4791 npl2.1 41.03 7.69 21.79 29.49 
AdBGLUAA 2evm.model.contig 5084 npl2.19 ^ 38.55 7.44 17.81 36.20 
AdBGLUAS 2evm.model.scaffold 6091 np12.6 40.52 2.60 11.15 45.72 


保守 域 分 析 结 果 表 明 〈 图 6) Motif 8 为 最 短 ， 含 有 29 NAERA; Motif 6 稍 长 ， 
含 35 个 氨基 酸 残 基 ; Motif 2、Motif 3 和 Motif 7 较 长 ， 含 有 41 个 氨基 酸 残 基 ; Motif 1. 
Motif 4. Motif 5 RK, HEA 50 个 氨基 酸 残 基 。 通 过 保守 基 序 结构 可 看 出 Motif 5 的 保守 
性 较 高 。 通 过 保守 域 分 析 发 现 ， 不 同 基因 含有 的 保守 域 数 量 不 同 ， 在 所 有 基 序 中 ，Motif 1 
出 现 的 频率 最 高 ， 推 测 其 为 特征 基 序 。 
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Motif 图 中 字母 越 高 ， 表 明 该 氨基 酸 出 现 的 频率 越 大 ， 则 序列 较为 保守 。 


The higher the letter in the Motif diagram, the more frequently the amino acid appears, and the more conserved the 


sequence. 


图 6AdBGLU 家 族 蛋 白 的 保守 基 序 分 析 


Fig.6 Conserved motif an 


亚 家 族 (A~F)，4dqBGLU 和 41BGLU 基 因 


alysis of AdBGLU family proteins 


同时 存在 于 B-F 亚 族 中 ， 表 明 这 些 亚 族 中 基因 


基于 杭 白 芷 和 拟 南 芥 的 蛋白 序列 构建 系统 发 育 树 〈 图 7)，44BGZLU 基因 被 分 为 6 个 


功 


能 保守 ( 张 曼 等 ，2022)。A 亚 族 中 ， 有 3 个 41BGLU， 无 44BGLU; B 亚 族 有 1 个 44BGLU 
和 4 个 AtBGLU; C 亚 族 有 13 个 AdBGLU 和 14 个 AtBGLU; D 亚 族 有 5 个 44BGLU 和 8 个 


LIRA 14 ^ AdBGLU 和 17 个 AtBGLU; FF 


AtBGLU; E | 


严 族 有 12 个 AdBGLU 和 2 个 


41BGLU。 在 C 亚 族 中 ， 杭 白芷 和 拟 南 芥 的 基因 数量 相似 ， 推 测 此 亚 族 中 的 同 源 基因 在 拟 
南 芥 和 杭 和 白芷 中 可 能 发 挥 相似 的 作用 ( 刘 雨 村 ，2020);， 而 在 


可 能 存在 调控 杭 白 


芷 内 香 豆 素 合成 的 关键 基因 ， 此 结论 还 需 进 一 步 验证 。 


其 余 亚 族 中 ， 数 量 差异 较 大 ， 


202308.00725v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


图 7 杭 和 白芷 和 拟 南 芥 BGLU 基因 家 族 进 化 分 析 
Fig.7 Phylogenetic analysis of BGLU proteins in Angelica dahurica and Arabidopsis thaliana 


3 讨论 与 结论 


有 研究 表明 物种 的 基因 组 大 小 与 其 倍 性 水 平 及 相应 的 染色 体 数目 存在 一 定 的 正 相关 性 
(Mank & Avise, 2006)， 通 过 对 禾 本 科 282 种 植物 基因 参数 的 研究 发 现 ， 随 着 染色 体 倍 性 从 
二 倍 体 到 八 倍 体 之 间 增 加 ， 其 对 应 的 基因 组 大 小 也 显著 增 大 ， 其 基因 组 大 小 与 倍 性 、 染 色 
体 数 呈 极 显著 正 相 关 ( 李 桂 双 等 ，2012)。 本 研究 获得 约 为 5.6 Gb 的 杭 白 芷 基因 组 ， 其 他 已 
完成 基因 组 测序 的 伞 形 科 植 物 有 积 雪 草 〈 约 为 430 Mb), F 〈 约 为 3.33 Gb)、 当 归 A 
为 2.37Gb) (Han et al., 2022)、 水 芹 〈 约 为 1.28 Gb)、 北 柴 胡 ( 约 为 621.42 Mb )、 胡 葛 小 
( 约 为 421.5 Mb)、 时 胡萝卜 〈 约 为 371.6 Mb), Æ (2973 2130.29 Mb)， 其 中 ， 白 芷 、 
上 芹菜、 当归 、 芜 萎 的 染色 体 数目 为 2122 条 ， 积 雪 草 和 胡 葛 卜 、 野 胡 葛 下 的 染色 体 数目 为 
2n-18 条 ， 北 上 某 胡 的 染色 体 数目 为 2n=12 条 ， 除 北 柴 胡 外 ， 符 合 染 色 体 数目 与 基因 组 大 小 
呈正 相关 关系 ， 表 明 本 次 测 得 的 杭 和 白芷 基因 组 大 小 符合 染色 体 数目 。 和 白芷、 芹菜 的 植株 生 
长 可 达 1.5 m， 而 其 余 植 物 均 不 超过 1 m， 初 步 推测 伞 形 科 植 物 基因 组 大 小 与 植株 高 度 呈 正 
相关 关系 ( 邵 晨 等 ，2021)， 可 为 后 续 同 属 或 同 科 植 物 基 因 组 的 研究 提供 参考 。 


香 豆 素 类 化 合 物 是 一 


素 、 吡 喃 香 豆 素 和 其 他 香 豆 素 四 类 (EREE, 2022) 


径 进行 合成 ， 目 前 已 有 较 多 下 


杆菌 中 提取 的 PAL 基 


(ZHANG et al., 2021); X} E HZ ÁJ% 


香 豆 酸 ， 用 同样 方法 对 


基因 


少 ， 尤 其 在 白芷 中 更 为 缺乏 。 F 
理 过 程 中 的 多 个 方面 有 关 ， 尤 其 是 对 生物 和 非 生 物 胁迫 的 响应 。 如 陆 


催化 功能 (WANG et al., 2020); 
形成 东 葛 车 内 醋 具 有 关键 作用 (WU et al., 2022); 
对 于 味 喃 香 豆 素 的 形成 可 能 起 到 关键 决定 
中 属于 较为 上 游 的 基因 ， 对 于 出 


白花 前 胡 和 紫花 前 胡 的 C4 基因 


类 具有 重要 药 用 价值 的 天 然 化 合 物 ， 分 为 简单 香 豆 素 、 呐 喃 香 豆 


FE 


在 白花 草木 标的 下 


或 能 正 向 调控 棉花 黄 蔡 病 抗 性 ， 
AtBGLU21-23 Wi] Tz TR "P R EE EE BK AR , 
ARE SG PLACER GE SEDAN, HEA JE 
供 基 础 ， 具 有 重要 价值 及 意义 。 

目前 ， 已 在 拟 南 芥 中 发 现 48 个 BGLU 家 族 基因 
al., 2011)， 水 稳 中 发 现 40 个 (Opassiri et al., 2006), 大豆 
地 棉 中 发 现 53 (KE, 2022), Ei 
定 出 45 个 BGLU 家 族 基 
在 细胞 质 、 叶 绿 体 、 液 泡 中 ， 这 一 结论 与 玉米 中 的 p- 葡 久 


究 表 明 BGLU 通 


EHE 


1， 香 豆 素 通过 葵 丙 烷 代 谢 途 


已 


功能 i 


究 揭 示 参 与 该 生物 合成 途径 的 关键 基因 。 例 如 
办 能 将 LL- 茶 丙 氨 酸 转化 为 肉桂 


， 从 明亮 发 光 


酸 、 将 L- 栈 氨 酸 转化 为 对 香 豆 酸 
究 中 发 现 ， 有 3 个 C4 刀 基因 具有 催化 肉桂 酸 生成 对 
行 探 索 ， 发 现 都 具有 相同 的 
究 中 也 发 现 MaBGLUI 基因 


XSPTIREGEH 


在 白芷 同属 
EH]. PAL. C4H 等 有 有 
类 基因 的 研究 较 多 ， 但 是 相对 下 游 的 
过 激活 植物 激素 和 防御 化 合 物 ， 与 植物 生 


et al., 2000), AdBGLU 3& [X] Z Jj HIE 


明 该 基 
生物 体内 参与 多 
前 胡 素 、 白 当归 
基因 功能 的 多 样 


进 


4 数据 获得 


原始 测序 数据 已 上 传 至 国家 基因 库 生 命 大 数据 


因 家 族 的 结构 较为 复杂 ， 
不 同 代 谢 过 程 。 杭 白芷 
素 、 佛 手 柑 内 酯 等 等 ， 其 生物 合成 途径 也 较为 复杂 ， 这 可 能 是 与 44BGLU 
白芷 香 豆 素 生 物 合成 具有 重要 作用 ， 可 为 
的 功能 提供 前 期 基础 。 


化 性 质 、 二 级 结构 、 了 
测 其 功能 较为 多 样 ， 各 基因 在 功能 分 工 上 


1 存在 多 种 香 豆 素 类 化 合 物 ， 如 


ES 


植物 当归 的 研究 中 ， 发 现 PT 


拟 南 芥 中 的 AtBGLUIO 可 以 催化 游离 ABA 的 产生 ， 
41BGLU42 参与 诱导 机 体 对 纪 


! 发 现 42 个 ( 柯 
TRH 51 个 (Yang et al., 2021)， 本 研究 在 杭 白 
因 ， 并 对 其 进行 理化 性 质 、 二 级 结构 等 分 析 ， 发 现 其 


E 香 豆 素 生物 合成 途径 


BGLU 基因 的 研究 较 


也 棉 中 5 个 GhBGLU 


胞 疾病 的 抵抗 力 。 


续 进 行 白芷 中 香 豆 素 类 成 分 合成 相关 基因 的 挖掘 提 


， 玉 米 中 发 现 26 个 (G6mez-Anduro et 


44, 2019), Ki 
芷 中 鉴 
亚 细 胞 定位 多 


Z 


可 糖苷 酶 定位 基本 一 致 Kristoffersen 
胞 定位 等 特征 差异 较 大 ， 说 


JX. AdBGLU 的 初步 分 析 对 杭 
步 揭示 和 利用 杭 和 白芷 香 豆 素 类 成 分 合成 途径 关键 基因 
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